【文章架構】
在AI人工智慧技術越來越成熟,數據資料越來越龐大下,機器學習演算法成千上萬種,該怎麼預先處理手上的數據、該怎麼分析哪些資料才是真正需要的、該使用什麼演算法比較適合的呢?因此,在報名iT鐵人幫之前,有先規劃一下30天的文章架構:
- 數據相關套件介紹
- 如何實作數據處理及分析
- 達成特徵擷取
- 機器學習實用演算法介紹
- 進行深度學習完成AI系統
在數據處理上,最常見的就是R跟Python了,現在Python與R已經可以互相串接起來了,所以精熟這兩項,就能好好駕馭大量的數據資料了。
在Python適用於數據處理、資料科學模組相當多,像是:numpy、scipy、pandas、statistics、matplotlib、VPython、OpenCV…等,而大部分都可以使用pip install命令直接安裝。
- numpy:可以提供Python本身沒有的陣列物件,並支援多維陣列處理,內含線性代數、矩陣運算、傅利葉轉換...等相當成熟的功能。
- scipy:相依於numpy,但scipy含有相當多的數學運算工具,例如積分運算、矩陣處理、影像及訊號處理...等。
- pandas:相當實用的資料分析模組,提供多維的標準資料結構,可以有效率的處理大型的資料。
- statistics:在python中提供大量的統計方法。
- matplotlib:實作資料圖形化,可以繪製多種圖形,像是長方圖、折線圖、圓餅圖...等。
- OpenCV:為影像處理函式庫,內有傅立葉轉換、二值化、雜訊處理...等影像處理函式。